2026年1月Agent 评测本页总览Agent 评测 分类 在线评测 在线评测是指讲用户真实的数据,作为数据集。然后去评测效果。 离线评测 使用我们构建的数据集,进行评测。 步骤评测 对于 rag 或者大模型中的每一个步骤。都存放在 span 中,也就是每个 span 都会包含 query,以及 output,那么就可以利用这两个参数进行测试了。不过这里的评测是没有标记结果的。但实际上可以根据评测集的数据来判断。 结果评测 对于 agent 输出的最终结果,进行评测。有标注/无标注均可。